查看原文
其他

大样本专题4:机器学习预测2000人肾透析miRNA相关心血管疾病风险标志物 | 转录调控专题

市场部-SLZ 联川生物 2024-03-27


论文标题:Improved cardiovascular risk prediction in patients with end-stage renal disease on hemodialysis using machine learning modeling and circulating microribonucleic acids

刊登日期:2020年10月

发表期刊:Theranostics

影响因子:11.6


1. 英文缩写释义

AURORA:一项评估瑞舒伐他汀在定期血液透析受试者中使用的研究,生存和心血管事件的评估;

CART:分类回归树;

CHAID:卡方自动交互检测器;

CHD:冠心病;

CVD:心血管疾病;

HD:血液透析;

IR:发病率;

IRV:发病率变化指数;

hsCRP:高敏C反应蛋白;

MACE:主要心血管事件;


2. 摘要与结论

本项研究为欧洲多中心研究,总计入组患者数量超过2000名。而miRNA作为一种稳定性强丰度高的标志物,利用决策树学习等非标准预测模型为肾透析末期患者的医疗决策提供有用的参考信息。

本研究基于AURORA试验中接受血液透析的终末期肾病患者的样本,总计入组患者n=810。该研究包括两个独立的阶段:I期(配对的患者组和对照组,n=410)和II期(不配对的患者组和对照组,n=400)。复合终点事件是心血管死亡、非致死性心肌梗死或非致死性中风。使用miRNA测序RT-qPCR对miRNA标志物进行定量检测。CART算法用于构建回归树模型。使用基于集成学习/装袋算法(Bagging)进行验证。

在第一阶段,通过配对的患者组和对照组,进行miRNA测序,通过差异分析找到候选miRNA——miR-632。即使在调整混杂因素后,miR-632仍然与终点事件相关,但在第二阶段没有复现。回归树模型确定了八个具有特定风险模式的患者亚组。miR-186-5p和 miR-632通过重新定义2个风险组进入了分支树:64 岁以上且hsCRP<0.827 mg/L的患者和64岁以下的糖尿病患者。与先前无miRNA的预测模型(综合AUC [iAUC] = 0.71)相比,加入miRNA标志物后,在随访开始时(24 个月)提高了辨别准确性。

总之miRNA作为一种新型的标志物,能够对常规的风险因素判断进行补充,以确定接受维持肾透析患者的是否会有特定的心血管风险。

 



3. 方法

3.1 事件复合终点

复合终点是肾透析患者到主要心血管事件(MACE)的时间,定义为心血管原因、非致命性心肌梗死或非致命性中风导致的死亡。如果没有足够的信息来归因于非心血管原因,无论是明确的还是疑似的,则突然的、意外的死亡被归因于冠心病CHD。


3.2 研究入组队列人群简介

 



第一阶段

在AURORA试验纳入的2776名患者中,205名有终点(病例)的患者与205名无终点(对照)的患者在年龄、性别、地区、体重指数(BMI)、KT/V(量化血液透析和治疗充分性。该比率包括:K=透析器尿素清除率、t=透析时间和V=尿素分布体积)和AURORA风险评分,包括年龄、白蛋白、hsCRP、CVD病史和糖尿病史。所有缺少血样的患者(n=8,即使有来自一对成员的血样,也丢弃了完整的病例对照对:n=16),血浆样本用于其他实验程序的患者(n=10)和miRNA定量未通过质控的患者(n=5)被排除在外。第一阶段的研究人群由379名患者(189名病例患者,190名对照患者)组成。



第二阶段

在有血样但不配对的患者(n=1731)中,随机抽取了200例病例和200例对照。将部分低质量样本排除在外后,II期研究人群由399名患者(200名病例,199名对照)组成。



3.3 统计方法



I期和II期的miRNA水平分析

所有分析均在R环境下进行,双尾经验显着性水平设定为p<0.05。在本研究中连续变量使用中位数等四分位的方式展现,分类变量使用百分比频率来描述。

① 无论是第一阶段和第二阶段两组患者之间,还是病例组和对照组之间,都是基于两两之间的基线特征及miRNA表达水平进行比较。连续变量使用非参数Wilcoxon检验,分类变量使用Fisher检验或卡方检验。

② PCA用于区分miRNA表达谱是否可以区分病例组和对照组患者。

③ Cox回归模型用于评估miRNA与终点事件之间的单变量和调整关系。

④ 风险比HR则定义为95%置信区间(95% CI)。

⑤ 所有miRNA都作为连续变量和二元变量(>1st tertile, >median, >2nd tertile)

⑥ 调整变量包括在第一阶段执行的所有匹配变量:年龄、性别、地区、BMI、KT/V、白蛋白、hsCRP、CVD 病史和糖尿病史。第二阶段报告了以下连续变量的缺失值:KT/V、BMI、白蛋白和hsCRP。

⑦ 使用三种不同的方法评估miRNA和终点事件之间的调整关联:完整观察(即通过排除调整变量缺失值的所有患者)、中值插补法(median imputation)和基于链式方程的多重插补(MICE)。

⑧ 对于MICE,生成了100个完整的数据集,并将这100个完整数据分析的结果汇总在一起。使用ROC曲线评估每种miRNA,并用AUC值和95% CI来表示。



回归树模型

作者使用回归树模型中非常经典的CART算法,并使用装袋程序(Bagging)进行变量选择额误差测量。每100名患者/年的事件发生率(IR)总结了绝对风险。HR用于表示每个最终节点内的相对风险。Kaplan-Meier(KM)曲线说明了观察到的事件发生时间结果的组间差异。

作为分类准确性的衡量标准,作者考虑了:

① 由最终节点的分层表示的有序风险的累积/动态接收器操作特征曲线(iAUC);

② 由定义的发病率变异指数(IRV),其中IR是人群的发病率,IRi和ni第i个最终节点上的发生率和样本量分别(1≤i≤f),其中f代表终点事件数量

 


这些获得的结果将用于Cox回归模型。


4. 结果



4.1 第一阶段筛选



对I组中的病例组和对照组的患者血浆使用miRNA测序,并进行了差异分析。根据差异倍数>2.5倍且p<0.05,找到了7个潜在的miRNA标志物:miR-506-5p、miR-513a-5p、miR-632、miR-1197、miR-4446-5p、miR-4765 和 miR-6853-5p。

为了证实miRNA测序结果,通过RT-qPCR对I期的24个病例和24个匹配对照的训练样本中的miRNA进一步评估。在超过80%的样本中,七种miRNA中有六种低于检测限(Cq≥35:miR-506-5p、miR-513a-5p、miR-1197、miR-4446-5p、miR-4765和miR-6853-5p)并被丢弃。miR-632的血浆水平稳定高表达支持了测序的结论。



4.2 第一阶段和第二阶段的验证

接下来,作者使用RT-qPCR对整个I期人群中的miR-632进行了定量检测。由于候选miRNA的数量较少,另外两个已知与心血管风险相关的miR-186-5p和miR-210-3p,也被包括在后续分析中。



与未报告事件的患者相比,观察到高于miR-632中值水平的病例比例更高。此外,即使在调整匹配变量后,miR-632(>1st三分位数和>中位数)与终点时间直接相关。基于这些发现,miR-632是HD患者心血管风险的候选生物标志物。



接下来,在II期队列(未匹配/配对的人群)中测试了miR-632。miRNA水平在病例和对照中具有可比性,在Cox回归模型中,miRNA与终点之间没有关联,AUC较低。同样,在I期和II期都没有发现miR-186-5p和miR-210-3p的关联性。



4.3 回归树模型

尽管关于miR-632在I期研究中取得了进展,但II期的结果表明miRNA并非是对肾透析患者风险分级的生物标志物。作者在先前自己课题组发表的研究中提出了miRNA表达谱在CVD的背景下定义特定患者亚群的潜力。

因此作者评估了miRNA是否可以根据心血管风险定义肾透析患者的亚群。使用CART算法在II期(不匹配)人群中构建了回归树模型,包括构成AURORA风险评分的变量:年龄、白蛋白、hsCRP、CVD病史和糖尿病史。

 


上图显示了在第二阶段群体中生成的决策树。圆圈代表整个随访,不同的颜色代表当时节点中患者的自由事件百分比。例如,一个完全绿色的圆圈表示该节点内100-80%的患者在随访期间没有经历该事件。

因此,如果圆圈的一半是绿色,另一半是深蓝色,则该节点中20%的患者预计会在随访的前半部分经历该事件,而另外0-20%的患者会经历该事件。预计将在后续的下半年体验该事件。随访结束时的生存率在60%以上。

 


在节点11中,预计超过80%的患者将在随访的第三年之前遭受该事件。CART模型显示两个循环miRNA,miR-186-5p和miR-632,通过重新定义两个风险组进入回归树的第三级:64岁以上且hsCRP<0.827mg/L的患者和糖尿病患者64岁以下的患者。IR值高于100表明所有患者在随访的第一年之前都试验了该事件。IRV为11.63,iAUC为0.73,范围在0.66和0.75之间(没有miRNA情况下的临床变量iAUC=0.71)。与没有miRNA的回归树模型相比,包含miRNA在随访的前两年可以更好地区分,单纯的临床变量iAUC=0.68,临床变量+miRNA的组合iAUC=0.71。

变量的预测变量重要性全称"variable importance" index,即“变量重要性”指数,是衡量变量在特定模型中的相关性,同时考虑到作为替代变量的潜在用途。

如果主要变量未知且无法包含在模型中,则变量将发挥的作用。变量重要性分析揭示了miRNA作为替代变量的潜力(图4B)。特别是,miR-210-3p具有与hsCRP相似的重要性,尽管它没有包含在模型中,因为已经选择了hsCRP。与AURORA风险评分的其他组成部分(如白蛋白、CVD病史和糖尿病史)相比,所有miRNA都显示出更高的重要性。

由于AURORA临床试验的最初目标是分析瑞舒伐他汀对临床结果的影响,因此在将瑞舒伐他汀治疗作为预测因素后进行了额外的分析。回归树没有选择瑞舒伐他汀的使用;因此,并没有干扰作者的发现。

5. 总结

总之,回归树模型表明miRNA表达谱能够对传统的肾透析导致的心血管疾病终点事件上风险分层中预测因子进行有效补充,并允许在接受维持性肾透析的终末期肾病患者中识别特定的心血管风险模式。


本研究有几个优点:

① 作者使用了一个高质量的数据库,该数据库基于来自25个不同国家的280个肾病中心的大量表型数据良好的肾透析患者队列。总样本量为810名患者,是目前研究中使用的最大样本量之一,重点是评估miRNA作为心血管生物标志物;

② 该研究的回顾性构成了一个关键的限制,回归树模型需要在前瞻性研究中进行外部验证。在miRNA测序中包含的所有2083个候选miRNA中,只有7条miRNA在训练集中进行了进一步测试。在这7条miRNA中,整个队列中仅测试了miR-632。其他miRNA可能是不良结果的潜在生物标志物。然而筛选阶段和训练集的样本量很小;

③ 此外,miRNA是他汀类药物反应的调节剂,并且还提出了他汀类药物对miRNA表达的潜在影响。由于AURORA临床试验的最初目的是分析瑞舒伐他汀对临床结果的影响,因此不应丢弃他汀类药物使用引起的混杂因素。

④ 然而与之前的研究结果一致,作者的额外分析表明,使用瑞舒伐他汀不会影响miRNA与结果之间的关联。还应考虑miRNA定量的技术手段限制所带来的挑战;

⑤ 目前,还没有一个被广泛接受的标准化系统。基于之前的发现作者们使用miR-486-5p作为内参,但是这种做法仍然可能会引起争议。


(相关阅读)
大样本专题1:33分杂志教你机器学习挖掘miRNA标志物诊断胰腺导管癌多中心队列研究 | 转录调控专题
大样本专题2:千人队列尿液circRNA标志物判定高级别前列腺癌-转录调控专题
大样本用户案例Cell Rep:600例转录组揭示禁食激活蛋白酶体开关| 转录调控专题
18分文章教你单细胞+miRNA联合分析套路2:AGO2共定位 | 转录调控专题

点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存